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基于 改进 协同 过 滤 算 法 的 用 户 页 面 兴趣 度 预测 研究 
宋 泊 东 ， 张 立 臣 


(广东 工业 大 学 计算 机 学 院 ,， 广 州 510006) 


摘 要 : 在 海量 的 数据 中 发 现 用 户 的 兴趣 度 是 电子 商务 领域 实现 针对 性 信息 推送 的 一 种 重要 方法 。 根 据 大 数据 稀疏 性 
特征 ， 把 奇异 值 分 解 方法 引入 协作 过 滤 算 法 中 进行 互联 网 站 点 用 户 的 页 面 兴趣 度 的 计算 和 验证 ， 提 出 了 一 种 基于 改进 
协作 过 滤 算 法 的 用 户 页 面 兴 趣 度 预测 算法 。 该 算法 可 通过 在 网 络 日 志文 件 中 ,提取 显 性 用 户 评分 数据 存在 的 “虚假 评 
分 ”， 发 现 用 户 页 面 兴趣 度 和 其 影响 因素 。MATLAB 仿真 结果 显示 : 提出 的 基于 改进 协同 过 滤 算 法 的 用 户 页 面 兴趣 度 
测量 方法 可 有 效 克 服 海量 数据 的 稀疏 性 ， 在 预测 准确 性 、 测 量 速 度 方 面 都 有 很 大 提高 。 
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Prediction of user page interest based on improved collaborative filtering algorithm 


Song Bodong, Zhang Lichen 
(School of Computers Guangdong University of Technology, Guangzhou 510006, China) 


Abstract: discovering user interest degree in massive data is an important way to implement information push. This paper 
proposes a page interest prediction algorithm based on singular value decomposition and collaborative filtering. The algorithm 
can extract the "false score" in the dominant user score data, and find user page interest and influence factors. The results of 
MATLAB simulation show that the collaborative filtering algorithm based on singular value decomposition is accurate and 
efficient in predicting the interest degree of user pages under the unavoidable situation of massive data sparsity. 
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人 号 提 出 的 适应 用 户 兴趣 变化 的 社会 化 标签 推荐 算法 ， 陈 臣 印 
构建 的 图 书馆 小 数据 读者 个 性 化 兴趣 预测 与 发 现 模型 ， 李 昌 兵 


:一 在 海量 数据 中 搜索 发 现 用 户 兴趣 度 ， 是 针对 用 户 兴趣 ， 实 。 ”等 人 外 对 Web 访问 用 户 关联 规则 挖掘 的 研究 , 张 朝 恒 等 人 no 提 
2 施 提供 个 性 化 推荐 的 重要 手段 。 目 前 , 获取 用 户 兴趣 度 (interest 。 出 了 基于 社交 网 络 信息 的 协同 过 滤 推 荐 算法 等 关于 页 面 兴 趣 度 
degree, ID ) 的 主要 有 显 式 反 馈 与 隐 式 反馈 两 种 方式 。 不 论 是 采 的 算法 研究 。 
用 哪 种 方式 ， 均 通过 采集 计算 用 户 访问 页 面 次 数 、 访 问 时 间 及 上 述 的 这 些 方法 虽然 采用 不 同方 法 和 不 同 角度 对 用 户 兴趣 
页 面 操作 动作 来 反映 用 户 兴趣 度 。 如 夏 义 国 等 人 中 建立 了 一 种 。“” 度 采集 、 测 量 进行 了 研究 ,但 大 都 缺乏 对 大 数据 稀 政 性 的 考量 ， 
神经 网 络 模型 ， 通 过 拟 合用 户 访问 网 站 页 面 次 数 和 时 间 ， 分 析 。 ”所 得 结论 往往 和 实际 情况 有 较 大 差异 。 

计算 用 户 兴趣 度 。 李 峰 等 人 中 建立 一 种 基于 隐 式 反馈 的 用 户 兴 因此 ， 本 文 在 前 人 研究 基础 上 ， 考 虑 了 海量 数据 稀疏 性 对 
趣 模型 ， 通 过 分 析 用 户 的 隐 式 反馈 行为 ， 计 算 、 获 取 用 户 兴趣 。” 用户 兴趣 度 测量 可 能 产生 的 影响 ， 提 出 了 一 种 改进 协同 过 滤 算 
度 。 邢 玲 等 人 外 构建 了 一 种 改进 -means 算法 的 用 户 兴趣 度 衰 。 ”法 的 网 站 访问 用 户 兴趣 度 预 测 模型 。 该 模型 可 以 通过 提取 网 络 
减 因子 测算 模型 ， 计 算 分 析 用 户 的 兴趣 度 。 尹 春晖 等 人 四 提出 日 志文 件 中 显 性 用 户 评分 数据 ， 通 过 计算 行 与 列 中 的 任意 两 项 
了 一 种 基于 用 户 浏览 行为 的 用 户 兴趣 获取 算法 ， 该 算法 通过 分 ”之 间 的 差 值 来 预测 用 户 对 页 面 兴趣 度 和 影响 因素 。 
析 用 户 页 面 浏 览 时 间 、 速 度 和 滚动 条 操作 动作 来 解释 用 户 兴趣 

度 。 王 微微 等 人 加 提出 了 一 种 基于 用 户 行为 的 兴趣 度 模型 ， 分 。 | ”网 络 用 户 页 面 兴 趣 度 计算 和 和 矩 阵 表示 


析 用 户 的 行为 模式 ， 结 合用 户 的 浏览 内 容 ， 发 现 用 户 兴趣 。 于 1.1 页 面 兴 趣 度 的 计算 
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箔 等 人 外 提出 了 一 种 顽 健 的 约束 信息 嵌入 方法 构建 关系 矩阵 ， ] 户 页 面 兴趣 度 是 用 户 对 网 络 页 面 感 兴趣 的 程度 。 通 过 分 
降低 了 矩阵 的 稀 玻 性 ， 进 一 步 提高 了 算法 的 准确 率 。 张 艳 梅 等 。” 析 用 户 访问 页 面 大 小 、 访 问 次 数 、 浏 览 时 间 、 拉 动 滚动 条 、 页 
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录用 稿 宋 泊 东 ， 等 : 基于 改进 协同 过 滤 算 法 的 用 户 页 面 兴 超度 预测 研究 
面 保存 等 动作 及 页 面 发 送 字 节 数 就 可 以 揭示 用 户 页 面 的 兴趣 度 。 Slope One 算法 的 思想 是 : 平均 值 可 以 代替 某 两 个 未 知 个 体 


如 将 用 户 i(D0;) 对 页 面 j(Pi) 的 兴趣 度 设 为 Interestij; 将 用 之 间 的 打分 差异 。 如 A 与 B 对 项 目 X 和 YY 的 评分 平均 偏差 是 
户 i 对 页 面 j 的 访问 次 数 设 为 nij; 将 用 户 i 对 页 面 j 的 平均 浏览 时 (3-4)+(2-4))/2=-1.5。 即 对 项 X 的 打分 一 般 比 项 Y 的 打分 要 高 
间 设 为 tij; 将 页 面 j 的 大 小 设 为 sp,j; 将 页 面 大 小 sp,j 对 用 户 的 浏 1.5。 根 据 这 种 情况 ， 采 用 Slope one 算法 就 可 以 推测 出 用 户 C 
对 项 Y 的 打分 是 4+1.5=5.5。 根 据 上 例 ， 在 已 知 用 户 评分 矩阵 


览 时 间 有 影响 的 相关 因素 设 为 Tij = 包 ， 对 页 面 兴 趣 度 的 次 数 


Sby 的 情况 下 ， 可 以 通过 定义 一 个 训练 集 x， 通 过 式 (5) 计算 出 项 
影响 因素 设 为 Nij = ni,j。 但 由 于 难以 衡量 Nij 和 mij 哪个 影响 因 i 和 项 目 j 的 平均 差 值 Dev,, ;: 
素 更 为 重要 ， 本 文采 用 主 成 分 分 析 方 法 就 可 获取 这 两 个 指标 的 Dem = Bucs — 
权重 ， 页 面 兴 趣 度 的 计算 公式 和 标准 化 处 理 公式 如 下 所 示 : | M9 caralsyi(2)) 


Interesti;y = a XT:i;+bxNij =ax+bxn (1) 人 上 
名 其 中 ; Sjitw) 为 同时 对 项 目 i 和 j 评价 过 的 用 户 集 合 ; wi 为 用 户 
1.) = Tj 0) u 对 项 目 i 的 评分 ; Wj 为 用 户 u 对 项 目 j 的 评分 ; card(sji(Xx)) 
MA) 为 同时 对 项 目 i 和 j 评价 过 的 用 户 个 数 。 
Tj = Ni @) 通过 式 (5) 计算 Dew, ;， 就 可 以 得 到 一 个 具有 实时 更 新 评 
人 分 功能 的 对 称 和 矩阵 。 
1.2 用 户 页 面 兴 趣 度 矩阵 表示 当 需 要 计算 用 户 w 对 项 目 j 的 评价 预测 值 P(Ww)j 时 , 通过 训 


将 用 户 访 问 页 面 大 小 、 Ua 浏览 时 间 、 拉动 滚动 条 、 练 集 x 中 用 户 u 己 评价 过 的 所 有 项 目的 集合 S(u) 中 与 项 目 j 有 
页 面 保存 等 动作 及 页 面 发 送 字 节 数 进行 前 置 处 理 后 ， 转 换 为 用 ”平均 偏差 pe, ;的 集合 Ri ， 就 可 计算 出 用 户 的 兴趣 度 。 有 具体 计 
户 页 面 兴趣 度 VSM 分 析 和 矩阵 。 本 文采 集 回 传 的 每 一 笔 用 户 访 。 算 公 式 如 式 (6) 和 《7) 所 示 。 

问 动作 记录 作为 1 份 文件 ， 并 进行 识别 切割 。 形 成 不 同 的 用 户 


P00); = U+— >, dev i 6 
对 不 同 页 面 的 兴趣 度 VSM 分 析 和 矩阵 。 如 式 (4) 所 示 。 - 人 人 
i x j Ri;= {ilie SCu),iz# card(s;i(x)) > 0} (7) 
Mo=m x n (4) ee gs 
其 中 :0 为 训练 集中 用 户 wu 己 评 项 目 平均 值 ，card(Rj) 为 


7 A 


其 中 :Mo: 每 个 用 户 对 不 同 页 面 的 兴趣 度 ; 共用 户 忆 jj: 被 访 。 ”训练 集 x 中 用 户 u 己 评价 过 的 与 项 目 j 数量 的 平均 偏差 dev;, ;。 
问 页 面 次 数 ，m 表 示 用 户 的 个 数 ，n 表 示 页 面 项 的 个 数 。 每 个 网 站 中 都 有 大 量 页 面 ， 兴 趣 不 同 的 每 个 用 户 往往 仅仅 
在 得 到 用 户 页 面 兴趣 度 和 矩阵 后 ， 就 可 以 对 该 矩阵 的 信息 和 访问 自己 感 兴趣 的 页 面 。 这 种 情况 导致 整个 页 面 兴趣 度 矩 阵 呈 
某 用 户 对 某 页 面 访问 的 操作 信息 进行 标准 化 处 理 ， 然 后 采用 协 ” 现 出 稀疏 性 ， 使 得 寻找 相似 用 户 较 为 困难 。 这 种 情况 也 导致 


同 过 滤 的 方法 来 预测 该 用 户 对 其 他 页 面 的 兴趣 度 。 Slope One 算法 在 计算 较 少 用 户 关 注 的 某 个 页 面 兴趣 度数 据 时 ， 
Re i ee 无 法 预测 新 用 户 对 该 页 面 的 兴趣 度 。 因 此 ， 要 解决 这 个 问题 ， 
2 ”基于 奇异 值 分 解 的 Slope One 算法 改进 与 实证 。 必须 找 出 与 用 户 页 面 兴 地 度 生 阵 结构 最 相似 的 稳 密 矩阵 做 基础 
分 析 进而 采用 Slope One 协同 过 滤 方 法 ， 过 滤 掉 矩阵 稀疏 度 ， 才 能 
2.1 算法 改进 思想 推导 出 用 户 对 页 面 的 兴趣 度 。 
2005 年 ，Lemire 等 人 0 提出 的 Slope One 算法 是 通过 计算 ”2.2 算法 改进 
群 用 户 对 一 组 项 目的 打分 的 平均 差 值 的 计算 ， 来 获得 一 个 较 合 奇异 值 分 解 (singular value decomposition， SVD) 是 一 种 应 


| 
里 的 预测 结果 。 黄 义 纯 呈 提出 的 Slope One 推荐 算法 改进 ， 相 广泛 的 机 器 学 习 算 法 。 李 卫 疆 等 人 0 提出 了 融合 信任 传播 和 
较 于 传统 的 协同 过 滤 推荐 算法 , Slope One 算法 综合 考虑 了 同 组 。 奇异 值 分 解 的 社会 化 推荐 算法 ， 该 算法 采用 特征 分 解 处 理 评分 
项 目 评价 过 的 其 他 用 户 的 打分 情况 和 目标 用 户 对 其 它 项 目的 扩 和 矩阵。 可 有 效 避 免 煞 据 拟 合 现象 ， 克 服 零 评 分 用 户 对 相似 度 计 
分 情况 ， 所 以 更 为 准确 和 高 效 。Slope One 算法 算法 的 用 户 评分 ，” 算 中 的 稀 疏 性 、 不 精确 问题 ， 具 有 良好 的 推荐 性 能 。 


二 
是 


和 矩阵 示例 如 表 1 所 示 。 本 文 拟 采 用 SVD 算法 ， 首 先 将 采集 的 数据 构建 一 个 mxn 
表 1 用 户 评分 矩阵 示例 阶 矩 阵 R ， 分 解 为 R=ToSoDo,5o= 
户 对 项 目 X 的 评分 对 项 目的 评分 diag(61,62… 6;)， 计 三 个 矩阵 。 其 中 ， 如 果 假 设 561 >= 
A 3 4 6 8 二 0， 则 7 和 Do 即 可 分 别 构成 m xr 和 r xz7 的 正 交 和 矩阵， 
B 2 4 即 (To7o = 1,DoDo = 站。 式 中 的 是 矩阵 R 的 秩 (r<min( m， 
C 4 ? n)) ， 那 么 ，$o 则 可 以 构成 一 个 r x r 对 角 和 矩阵 ， 将 所 有 值 均 


表 1 为 一 个 根据 用 户 A 和 B 评分 矩阵 ， 预 测 用 户 C 对 项 设 为 大 于 0 后 ， 并 按照 大 小 降 维 排列 后 。 就 可 以 产生 一 个 简化 
X 的 打分 示例 。 的 近似 矩阵 。 通 常情 况 下 ， 甜 阵 R = 70SoDo To，To、Do 和 So 都 
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必须 为 满 秩 ， 存 在 计算 量 大 、 运 算 复杂 的 缺陷 。 采 用 奇异 值 分 ”存在 极 大 的 稀 疏 性 ， 但 仍 在 可 接受 的 网 络 数据 特性 范围 内 。 和 拢 
解 So， 使 之 保留 k 个 最 大 的 奇异 值 ， 其 他 则 用 0 来 代替 ， 就 可 ” 阵 Mo 标 准 化 后 变 为 Mio。 从 图 1 可 以 看 出 ， 随 着 矩阵 稀 玻 度 的 
得 到 含有 k 个 奇异 值 的 矩阵 (kxr) 。 进 一 步 删除 So 中 值 为 0 的 。 不 断 增 大 ， 平 均 绝对 误差 MAE 的 值 也 随 之 不 断 增 大 。M4E 的 
行 和 列 ， 就 可 得 到 对 角 甜 阵 $ ， 同 理 ， 如 果 将 矩阵 Th、Do 也 采 ”定义 如 下 : ru i), 7(a, D， 其 中 , rtu, 昌 是 对 项 目的 预测 评分 ， 

用 降 维 方法 简化 为 T 和 D, 就 可 得 到 矩阵 Rk = TSD, Ri ~ R “。 7(a, 是 用 户 对 项 目的 实际 评分 ， 而 M4E 的 值 即 为 N 个 此 类 


进而 采用 协同 过 滤 算法 ， 对 用 户 兴趣 度 年 阵 R 进行 规范 化 处 ”评分 对 差 的 平均 值 ， 平 均 绝对 误差 MAE 的 值 测算 公式 为 
理 后 ， 这 样 可 以 得 到 和 矩阵 R，。 再 用 SVD 算法 就 可 得 到 输出 矩 mp 
阵 T、D 和 描述 用 户 在 k 维 空间 中 的 关系 的 TS1/2 (mxk) 的 用 MA 人 
户 矩 阵 及 兴趣 度 大 小 计算 $3D Cn x ) 项 矩阵 ， 引 入 协同 过 滤 如 果 得 到 的 M4E 的 值 越 小 ， 则 对 用 户 评价 的 预测 就 越 准 
算法 ， 计 算 TS12 (mxk) 和 sip Cn xk ) 就 可 得 到 用 户 页 面 兴 。” 确 ， 预 测 质 量 就 越 高 。 
趣 度 的 大 小 。 - 
1) 推 荐 产生 1 
将 采集 的 数据 标准 化 后 的 数据 矩阵 作为 实现 奇异 值 分 解 的 
基础 矩阵 ToTo = 1,DoDo = 17， 然后 采用 向 量 空间 方法 计算 TS12 Se 
的 相似 度 。 得 到 用 户 页 面 兴 趣 度 的 最 近邻 和 相应 的 推荐 集 。 oz 
2) 兴 趣 度 计算 Te 
将 矩阵 7S1/2 和 S12D 相 乘 ， 得 到 项 内 积 ， 即 可 计算 用 户 z ia 
对 项 i 的 兴趣 度 。 测 算 公 式 如 下 : 图 1 不 同 的 页 面 兴 趣 度 矩 阵 稀疏 度 对 推荐 算法 的 预测 准确 性 的 影响 
IQWi) = 五 二 TS12(u) x S12D' (i) (8) 本 文通 过 MATLAB 对 奇异 值 算 阵 Mj 进行 奇异 值 分 解 ， 使 
其 中 , 五 是 用 户 v 对 已 评分 项 的 平均 评分 。 得 Mi = Tx5SxD,D1， 和 矩阵 Mi 是 一 个 105 X168 的 矩阵 , 则 通 
通过 式 (8) 的 计算 , 就 可 得 到 一 个 考虑 新 用 户 和 新 项 目 情 。“” 过 奇异 值 分 解 得 到 的 7 了 为 105X105 阶 矩 阵 ，S 为 105X168 阶 


况 下 无 缺失 值 的 用 户 评分 和 矩阵， 使 用户 的 页 面 兴趣 度 矩 阵 形成 ” 方 阵 ，D 为 168X168 阶 方 阵 。 


100% 密 集 , 解决 数据 测算 的 稀疏 性 问题 。 在 此 和 矩阵 上 就 可 以 计 ”2.3.2 5-fold 交叉 验证 

算得 到 用 户 对 站 点 其 他 页 面 的 兴趣 度 。 5-fold 交叉 验证 是 一 种 为 避免 过 度 拟 合 而 采用 的 边 训练 ， 
2.3 实证 分 析 边 验 证 的 机 器 学 习 算法 。 其 原理 是 将 训练 数据 随机 分 成 k 分 ， 
2.3.1 兴趣 度 和 稀 跤 度 计 算 训练 k 次， 直至 找 出 最 优 解 。 为 比较 改进 算法 的 有 效 性 ， 本 看 


本 文 使 用 淘宝 网 (https://www.taobao.com ) 的 网 络 日 志 2017 究 采 用 5-fold 交叉 验证 方法 对 传统 Slope One 算法 和 改进 的 
年 6 月份 的 数据 进行 分 析 。 数 据 经 过 清理 后 ， 按 上 面 所 述 方法 Slope One 协同 过 滤 算 法 (Slope One-after-SVD) 进行 比较 ， 结 


进行 处 理 后 得 到 的 页 面 兴 趣 度 的 公式 如 (9〉 所 示 。 果 如 图 2 所 示 。 
Interesrij = 0.7071 x 7 + 0.8561 x ni (9) os 
o7 
进而 得 出 用 户 页 面 兴 趣 度 和 矩阵 Mo, 其 中 用 户 105 人 , 页 面 了 
168 个 。 部 分 用 户 页 面 兴趣 度 窍 阵 见 表 2。 82 
表 2 用 户 页 面 兴 趣 度 矩阵 Mo( 部 分 ) 0 有 
已 Pp Ps Pp Ps Ps Pp Ps Pp Po ! FR 验证 集 
ee mC ET) 
U2 0.579 0.621 1.087 图 2 Slope One 和 Slope One After SV 算法 
Us 0261 0.634 0.426 在 5-fold 交叉 验证 下 的 预测 准确 性 比较 ， 计 算 其 平均 值 可 
Us 0.271 0.415 0.488 0.501 0.394 0.445 以 得 到 如 式 (11) 的 结果 。 
Us 0.277 1.432 0.33 0.445 ”0.595 MAEsiopeone = 0.551, MAEsiopeoneafersvD = 0.193 (11) 
Us 2702 0.96 0.488 0.632 0.351 0.475 0.445 0.316 0.316 0.686 通过 平均 值 的 计算 和 实验 结果 也 可 以 看 出 ， 在 数据 稀疏 性 
U, 0314 0.402 0.43 0.565 0.370 难以 避免 情况 下 ， 本 文 提出 的 基于 改进 协同 过 滤 算 法 (Slope 
Us 2.072 0.65 0.768 0.337 0.436 0.445 0.331 One-After-SVD ) 较 之 传统 的 Slope One 算法 在 准确 性 方面 有 较 
U 0.902 0.946 1.141 0.786 0.608 0.4 大 提高 。 通 过 训练 集 3 和 验证 集 3 可 以 发 现 ， 仿 真 曲线 呈现 了 
Uio 0.807 0.635 堆 然 相反 的 特征 。 这 说 明 在 处 理 数 据 稀疏 度 方面 更 具 平滑 特征 。 
矩阵 Mo 的 稀疏 度 为 1- 一 = 一 =0.9468， 这 虽然 说 明 数据 “可 有 效 避 免 因 稀疏 度 未 知 或 估计 不 足 导致 的 验证 失败 。 
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过 滤 算 法 中 进行 互联 网 站 点 用 户 的 页 本 
实验 结果 显示 : 在 数据 稀 玻 性 难以 避 


结束 语 


本 文 根 据 大 数据 稀 疏 性 特征 ， 


把 奇异 值 分 解 方法 引入 协同 
兴趣 度 进行 计算 和 验证 
免 情况 下 ， 本 文 提出 的 改 


进 协同 过 滤 算 法 的 用 户 页 面 兴 趣 度 预 测 方法 ,在 不 同 的 训练 集 、 
验证 集 上 的 预测 准确 性 都 有 很 大 提高 。 但 由 于 本 文中 的 实验 所 
采用 的 数据 仅仅 为 一 个 特定 的 较 小 数据 集 ， 难 以 代表 不 同 的 和 
较 大 的 数据 集 特性 。 因 此 ， 改 进 算法 的 适用 性 还 需要 在 不 同 数 


据 集 、 不 同 数据 量 下 进行 进一步 验证 。 
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